ocrmypdf

Mac安装ocrmypdf以及使用命令

使用brew安装ocrmypdf

brew install ocrmypdf
下载语言库，地址github语言库

注意：此github库完全clone下来，大小达到了 4.86GB。可以直接在github上，单独下载中文语言包（42MB）。

选择简体中文chi_sim.traineddata、英文eng.traineddata

将文件拷贝到：/usr/local/Cellar/tesseract/4.1.1/share/tessdata 目录下
使用命令转换，将图片式的PDF转换成文本式的PDF

ocrmypdf -l chi_sim your_image_version.pdf output_file_name.pdf

注意这里要指定语言版本-l chi_sim ，否则转换后的文字版pdf，文字复制出来会是乱码。

tesseract --help 命令可以查看Tesseract使用

esseract --list-langs 命令查看本地存在的语言库

jbarlow83/OCRmyPDF

ocrmypdf最全使用命令

将图片转成文本

使用上述安装好ocrmypdf之后，其实也默认安装好了tesseract。直接使用即可。

1	tesseract -l chi_sim test.png result

将文字版PDF转换成txt数据

环境：python3.7+pycharm

操作系统：Mac

# coding=utf-8
from pdfminer.pdfinterp import PDFPageInterpreter, PDFResourceManager
from pdfminer.converter import TextConverter, PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfdevice import PDFDevice
from pdfminer.pdfpage import PDFPage
import codecs

#
# 获取pdf文档
fp = open('zh2003.pdf', 'rb')
# 创建一个与文档相关的解释器
parser = PDFParser(fp)

# pdf文档的对象，与解释器连接起来
doc = PDFDocument(parser=parser)
parser.set_document(doc=doc)

# 如果是加密pdf，则输入密码
# doc._initialize_password()

# 创建pdf资源管理器
resource = PDFResourceManager()

# 参数分析器
laparam = LAParams()

# 创建一个聚合器
device = PDFPageAggregator(resource, laparams=laparam)

# 创建pdf页面解释器
interpreter = PDFPageInterpreter(resource, device)

# 获取页面的集合
for page in PDFPage.get_pages(fp):
    # 使用页面解释器来读取
    interpreter.process_page(page)

    # 使用聚合器来获取内容
    layout = device.get_result()
    for out in layout:
        if hasattr(out, 'get_text'):
            # print(out.get_text())

            # 写入txt文件
            fw = codecs.open('zh2003.txt', 'aw', 'utf-8')
            fw.write(out.get_text())

    if not fw.closed:
        fw.close()

参考文档

tesseract-ocr/tessdata

Mac安装使用tesseract-ocr

mac上文字识别(Tesseract-OCR for mac )